Критерий Пятницкого-Гукасова-Смирнова
Добро пожаловать в программу, реализующую критерий
Пятницкого-Гукасова-Смирнова для поиска кластеров/разряжений в
популяционных пространственных и временных данных. Чтобы процитировать
нас или узнать подробности о работе критерия, используйте следующие
статьи:
- Пятницкий, А. М. Кластеризация данных методом “расширения точек” /
А. М. Пятницкий, В. М. Гукасов, А. С. Смирнов // Медицина и высокие
технологии. – 2020. – № 2. – С. 9-14. – EDN NSGUTS.
- Пятницкий, А. М. Поиск кластеров событий в эпидемиологии и
экологическом мониторинге / А. М. Пятницкий, В. М. Гукасов, А. С.
Смирнов // Медицина и высокие технологии. – 2020. – № 4. – С. 29-37. –
EDN ULSCTY.
- Пятницкий, А. М. Поиск кластеров событий для данных, представленных
в виде частотных таблиц, и его применение в эпидемиологии и
экологическом мониторинге / А. М. Пятницкий, В. М. Гукасов, А. С.
Смирнов // Медицина и высокие технологии. – 2021. – № 2. – С. 7-17. –
DOI 10.34219/2306-3645-2021-11-2-7-17. – EDN YYPGDT.
- Пятницкий, А. М. Поиск кластеров в популяционных данных / А. М.
Пятницкий, В. М. Гукасов, А. С. Смирнов // Медицина и высокие
технологии. – 2021. – № 3. – С. 63-71. – DOI
10.34219/2306-3645-2021-11-3-63-71. – EDN ZURQAI.
Инструкция
- Пример готовых данных можно скачать в вкладке “Примеры данных”
- Распаковываем архив в любую пустую папку
- Необходимо определить распределение размеров кластеров/разряжений и
распределение максимального размера кластеров/разряжений методом
Монте-Карло. Для этого
- Загружаем в сервис все распакованные файлы из
архива.
- Выбираем необходимые параметры (про пределы см. принцип работы
критерия)
- Запускаем симуляцию
- Сохраняем результат
- Далее можно воспользоваться самим критерием:
- Загружаем в сервис все распакованные файлы из
архива.
- Выбираем необходимые параметры: столбцы с данными, режим работы,
т.е. какой столбец будет использован для расчетов)
- При необходимости внести изменения или посмотреть значение в
регионе, можно кликнуть на регион и поменять значение величины при
необходимости.
- Запускаем расчет
- Сохраняем результат
Принцип работы критерия
При изучении пространственно-временной изменчивости в числах событий
используются два представления исходных данных:
- event-based datа, когда известны координаты событий (точечные
данные)
- population-based data, когда известно лишь общее число событий в
каждой области за определенный промежуток времени (частотные
данные).
Предлагаемый критерий может быть использован в обоих случаях, однако,
данный сервис предполагает работу только с частотными данными.
Даны частоты событий для каждой i-ой области, обозначим их \(O_i\) Возможны две постановки задачи:
- разыскиваем пространственные неоднородности в один и тот же момент
времени (hot spots, cold spots, то есть кластеры и разряжения)
- разыскиваем области, в которых количество событий значимо
увеличилось или уменьшилось.
В первом случае области должны быть выбраны так, чтобы численности
популяций в них были одинаковы. Во втором случае области произвольны и
могут, например, соответствовать административным регионам
(предполагается, что размер популяции в каждой области не
изменился).
- Даны частоты для каждой области, назовем их \(O\)
- Допустим, размеры популяций в каждой области одинаковыми и средняя
частота по всем ячейкам не мала \(\overline{O}>5\)
- Тогда для каждой области вводятся вероятности \(p_i\) (см. ниже), которые в случае
справедливости \(H_0\) имеют
равномерное распределение и две пороговые вероятности \(p_{down}\), \(p_{up}\). Пороговые вероятности выделяют
области, для которых есть подозрение на то, что имеется неоднородность
(кластер или разряжение, увеличение частоты событий с течением времени
или уменьшение).
Для пространственной неоднородности \[\begin{equation}
p_i = \Phi (\frac{O_i - \overline{O}}{\sqrt{ \overline{O}}})
\end{equation}\]
Для сравнения моментов времени\[\begin{equation}p_i = \Phi
(\frac{O^{t_1}_i - O^{t_2}_i}{\sqrt{O^{t_1}_i +
O^{t_2}_i}})\end{equation}\]
\(\Phi (z)\) - функция
Лапласа.
- Соприкасающиеся ячейки(группы), попадающие в диапазон \([0;p_{down}]\) - разряжения
- Соприкасающиеся ячейки(группы), попадающие в диапазон \([p_{up};1]\) - кластеры
- Статистика для кластеров \[\begin{equation} S_n =
-2\sum_{k=1}^{n}{\ln{\frac{p_k}{p_{down}}}} \end{equation}\]
- Статистика для разряжений \[\begin{equation} S_n =
-2\sum_{k=1}^{n}\ln{\frac{1 - p_k}{1 - p_{up}}}
\end{equation}\]
- При справедливости \(H_0\)
справедливо \[\begin{equation}S_n \sim
\chi^{2}_{2n}\end{equation}\]\[\begin{equation}n \sim
Uniform(0;1)\end{equation}\]
- Для каждой исследуемой области строится критическая область S(n).
Если кластер/разряжение выходит за его границы, то он/оно считается
статистически значимым.